Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод с помощью графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Q-Q plot позволяет кроме принадлежности

Фактически, \(p.value\) во случае Q-Q Plots будет оценивать человеческий мозг на основе визуального изучения.

Как видите, графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

С чего начинать? Сперва стоит посмотреть видео на YouTube от StatQuest. Это тот самый автор, который на обложке видеороликов пишет “… Clearly Explained”. Если у вас Яндекс-браузер, то вы можете смотреть его видео почти на русском. Есть упомянутая статья в википедии, а также неплохой текст на Медиуме. Мне показалось, что это лучшее, что можно найти в поиске по теории, если просто вбивать в строку браузера “Understanding QQ-Plots”. Напишите в комментариях вашу любимую статью по квантильным графикам.

Несмотря на замечательные материалы, которые я упомянул, у меня не сложилось полноценного понимания QQ-Plots. Я до сих пор не могу с ходу представить в голове распределение, если мне показать QQ-Plot. Но я смог осознать несколько важных тезисов, с которыми и хочу вас познакомить сегодня при помощи Wolfram Mathematica. Подход, который я представляю, отличается теоретическим взгядом на данные. Я представляю визуализацию построения идеальных квантильных графиков, которая, тем не менее, легко переносится на соответствующие распределения выборочных данных.

1. Квантили.

Начнем с трех важнейших определений: дискретный квантиль выборки, дискретный квантиль плотности распределения и квантиль-функция.

Квантиль дискретной выборки - это одна из точек, делящих упорядоченную последовательность чисел на равные части.

Картинка


Квантиль непрерывного распредления - это одна из точек, делящих функцию плотности распределения на участки, вероятность попадания в которые одинакова, то есть на участки одинаковой площади.

Картинка

Квантиль-функция \(-\) это функция, которая по значению вероятности \(P\) возвращает такое число (квантиль) \(q\), что вероятность того, что случайная величина примет значение меньше \(q\) равняется \(P\).

\[Quantile(P) = q: \:\:\:\: Probability(x<q) = P\]

Можно представлять себе квантиль-функцию непрерывного распределения, как зависимость арифметического уровеня воды в вазе, стенками которой является функция плотности вероятности \(-\) от объема налитой воды. Эта интерпретация хорошо показана в видео одного бразильского инструктора по статистике.

Картинка

2. QQ-plots. Базовые тезисы.

Base plot

Для начала построим обычный наш базовый квантильный график - теоретических квантилей стандартного нормального распределения от теоретических квантилей стандартного нормального распределения. На следующей картинке в виде непрерывной прямой показана зависимость этих квантилей. Горизонтальные прямые делят зависимое распределение на 8 равных по плащади промежутков, а вертикальные прямые делят независимое распределение на промежутки с таким же смыслом.

Картинка

Выводы:

Физический смысл наклона линии тренда и значение q-q plot в нуле

А что будет, если зависимое распределение более дисперсно? А менее?

Картинка

Вывод:

  • Значение квантильной зависимости в нуле – это медиана распределения, которое мы строим на оси y.
  • Тангенс наклона прямой - это стандартное отклонение распределения, которое мы строим на оси y. Если главный тренд Q-Q плота положе, чем y = x (график 1), то распределение, построенное не вертикальной оси менее дисперсно, чем распределение, построенное на горизонтальной оси. Если главный тренд Q-Q плота круче, чем y = x (график 2), то распределение, построенное не вертикальной оси менее дисперсно, чем распределение, построенное на горизонтальной оси.

Таким образом, мы разобрались с основными понятиями и подтвердили, что QQ-Plot нормального распределения, действительно, хорошо визуализирует медиану и дисперсию, чем являются значение коэффициенты прямой. Значение в нуле -

Скошенные распределения

Картинка


Здесь хочется дать определение прямой главного тренда. Програмный пакет пытается накинуть нормальное распределение на наши данные и наилучшим образом подобрать среднее и стандартное отклонение генеральной совокупности, если бы наши данные были взяты из него. Полученная прямая главного тренда - это график квантилей теоретического нормального распределения нашей выборки от квантилей стандартного нормального распределения. Я не знаю точно, как именно он это делает, просто использует линейную регрессию на QQ-Plot или какие-то более глубокие методы. Оставим это за кадром. Напишите в комментариях, если знаете методику.

Выводы:

  • Если левый конец квантильного графика ниже прямой главного тренда, а правый стелется вдоль нее, то распределение скошено влево.
  • Если левый конец квантильного графика стелется вдоль прямой главного тренда, а правый выше нее, то распределене скошено вправо

Чтобы определить, что будет на квантильном графике. Можно мысленно набрасывать нормальное распределение на гистограмму выборки. Если в левой части распределения значения на единичной гистограмме больше, чем предсказанные, то, очевидно, квантили в нем появляются раньше, чем если бы оно было нормальным, соответственно этом случае квантили будут ниже прямой главного тренда на qq-plot.

Нестандартные распределения.

Равномерное распределение

Картинка

Выводы:

  • Квантиль-квантиль плот для равномерного распределения представляет собой \(S\) - образную кривую.

Экспоненциальное распределение

Картинка